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其 于 BERT 和 深度 主动 学 习 的 农业 新 闻 文 本 分 类 方法 
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的 / 意义] 当前 农业 新 闻 分 类 研究 中 的 模型 训练 以 被 动 学 习 方 式 居 多 ， 普 遍 存 在 数据 无 法 即时 标注 及 标注 成 本 过 
高 的 问题 ， 对 农业 新 闻 分 析 工 作 也 造成 了 一 定 阻碍 。 为 解决 该 问题 ， 运 用 主动 学 习 或 者 深度 主动 学 习 技术 从 未 标注 数据 中 选 
择 更 有 价值 和 代表 性 的 数据 进行 人 工 标注 并 构建 标注 数据 集 ， 提 升 农业 新 闻 挖 掘 工作 效率 和 效果 。 [方法 / 过 程 ] 将 文本 分 类 
常用 的 机 器 学 习 模 型 结合 主动 学 习 方 法 分 析 提 升 效果 ， 以 及 使 用 BERT 模型 结合 3 种 采样 策略 进行 深度 主动 学 习 训练 ， 在 共 
19 847 条 样本 的 新 闻 有 候 虫 语 料 上 以 往 选 出 农业 相关 新 闻 为 目标 ， 通 过 每 轮 增加 30 个 样本 标注 的 和 迭代 实验 进行 测试 。 [结果 / 
结论 ] 实验 结果 表明 : 主动 学 习 方法 的 应 用 对 各 个 模型 的 训练 过 程 均 有 明显 提升 。 其 中 BERT 模型 配合 判别 性 主动 学 习 采 样 函 
数 ， 具 有 最 优 的 新 闻 文 本 分 类 效果 和 最 低 的 标注 数据 需求 。 
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19-29. 
监测 ， 灾 害 预 警 ， 产 品 营销 等 研究 ， 需 要 对 大 量 的 新 
1 引言 闻 文 本 进行 挖掘 分 析 ， 找 出 有 价值 的 信息 。 而 这 些 研 
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随 着 互联 网 和 农业 信息 化 的 快速 发 展 ， 网 络 上 的 
包括 农业 主题 在 内 的 各 类 新 闻 内 容 数量 呈现 井喷 式 上 
升 ， 并 且 新 闻 报 道 的 作者 也 开始 呈现 多 样 化 ， 除 传统 
的 政府 媒 外 还 有 许多 个 人 或 社会 组 织 ， 新 闻 在 传播 过 
程 中 产生 了 不 容 忽视 的 社会 影响 ， 而 新 闻 的 内 容 也 履 
盖 了 生活 的 方方面面 。 因 此 为 了 在 农业 领域 进行 与 情 


究 的 前 提 都 是 要 先 对 新 闻 按 照 主题 或 者 领域 进行 分 类 
和 筛选 ， 所 以 产生 了 对 新 闻 按 主题 进行 分 类 的 需求 。 
因此 新 闻 主 题 分 类 任务 是 农业 文本 挖掘 领域 的 一 项 基 
本 研究 。 

基本 的 新 闻 分 类 方式 是 使 用 机 器 学 习 或 者 深度 学 
习 模 型 去 进行 有 监督 的 分 类 模型 训练 和 预测 。 许 丽 在 
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词 频 - 闭 文 档 频率 ) 文本 表示 的 基础 上 使 用 加 权 朴 素 
贝 叶 斯 模型 构建 了 新 闻 文 本 分 类 算法 帆 ， 提 升 了 新 闻 文 
本 分 类 效果 。 但 是 朴素 贝 叶 斯 分 类 算法 由 于 其 数据 必 
须 满足 贝 叶 斯 朴素 假设 ， 因 此 面 对 超 大 规模 文本 数据 
时 候 模 型 性 能 会 出 现 较 明 显 的 下 降 。 郭 文 强 基于 SVM 
实现 了 新 冠 疫情 虚假 新 闻 检 测 中 ， 比 较 了 对 虚假 新 闻 检 
测 中 4 种 核 函 数 的 精准 度 ， 发 现 线性 核 函数 分 类 融 作 
为 信息 检测 模型 成 果 最 优 。 田 沛 霖 使 用 了 CNN-BiGRU 
神经 网 络 模型 进行 了 新 闻 分 类 外 ， 进 一 步 提 高 了 算法 的 
准确 率 和 泛 化 性 。 可 见 随 着 更 复杂 的 模型 的 不 断 应 用 ， 
新 闻 文本 分 类 的 效果 也 在 不 断 提 高 。 

由 于 新 闻 数 量 庞大 且 在 不 断 增长 ， 故 训练 主题 分 
类 模型 需要 人 工 标注 ， 耗 费 了 大 量 人 力 和 时 间 。 而 主 
动 学 习 (Active Learning, AL) 技术 是 一 种 通过 自动 选 
择 数 据 的 标注 和 训练 顺序 可 高 效 准 确 完 成 机 器 学 习 任 
务 的 一 项 技术 。 它 假设 数据 的 收集 相对 容易 ， 但 标记 
成 本 高 ， 这 符合 许多 文本 、 视 觉 和 语音 识别 任务 中 的 
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行 训练 ， 利 用 样本 间 的 相似 度 将 样本 进行 聚 类 ， 并 在 
每 一 个 聚 类 复 中 ， 按 照 设 定 的 规则 选择 最 具有 价值 的 
样本 进行 人 工 标注 ， 减 少 人 工 标注 的 工作 量 ， 出 色 完 
成 了 弹 幕 文本 分 类 任务 。 这 些 在 文本 分 类 任务 中 和 主 
动 学 习 方法 配合 的 是 浅 层 机 器 学 习 模 型 或 者 轻 量 级 神 
经 网 络 模型 。 

自然 语言 处 理 (NLP) 领域 最 新 的 一 个 重大 发 展 
是 引入 了 预先 训练 过 的 深度 文本 模型 ， 显 车 提高 了 许 
多 NLP 任务 的 最 优 表现 。 一 个 突出 的 例子 是 BERT 模 
型 中 ， 它 自 出 现 以 来 就 受到 了 NLP 研究 界 的 广泛 关注 。 
BERT 预 训练 模型 是 谷歌 公司 在 2018 年 提出 的 。 在 
BERT 模型 中 使 用 了 双向 Transformer 编码 右 ， 使 得 模 
型 能 够 充分 获取 输入 文本 中 的 语义 信息 。 然 而 ， 使 用 
主动 学 习 与 深度 预 训 练 模型 (特别 是 BERT 模型 ) 相 
结合 的 文本 分 类 方法 ， 迄 今 为 止 都 少 有 相关 研究 。 

首先 ， 考 虑 到 预 训 模型 的 特性 ， 尽 管 预期 这 些 模 
型 即使 使 用 少量 的 训练 数据 也 能 产生 足够 的 性 能 ,但 


实际 情况 。 它 解决 了 在 欠 代 式 训练 流程 中 的 一 个 重要 
问题 ， 即 如 果 因 为 标注 成 本 和 项 目 时 间 等 多 方面 的 限 
制 条 件 ， 在 整个 训练 流程 中 只 能 在 所 有 未 标注 数据 中 
选择 有 限 的 样本 子 集 经 过 人 工 标注 后 作为 训练 集 进行 
模型 训练 ， 那 么 选择 哪些 样本 能 使 得 本 轮 模型 迭代 中 
测试 准确 率 的 最 大 提升 ? 对 应 地 在 主动 学 习 方法 中 有 
各 种 采样 函数 负责 实现 不 同 场景 下 最 有 价值 数据 的 筛 
选 。 最 流行 的 主动 学 习 方 式 是 基于 池 的 采样 种 ， 它 假设 
有 一 个 小 的 标记 数据 集 ， 并 访问 一 个 大 的 未 标记 数 
HEU, PRERA U 中 选择 下 一 批 要 标记 的 样本 。 
在 迭代 过 程 的 每 一 步 ， 主 动 学 习 算法 使 用 LL 和 U 中 的 
信息 来 从 U 中 选择 要 标记 的 最 住 样本 x。 然 后 将 x 标 
注 后 添加 到 工 中， 这 个 过 程 重复 直到 我 们 达到 所 需 的 
样本 数量 或 分 类 精度 。 

利用 主动 学 习 方 法 应 用 到 文本 分 类 领域 获得 了 学 
者 们 的 广泛 关注 。 黄 永 毅 将 主动 学 习 方法 应 用 到 SVM 
支持 向 量 机 模型 唱 ， 把 新 闻 文 本 进行 了 财经 、 军 事 、 体 
育 、 历 史 、 科 技 5 个 主题 的 分 类 训练 ， 有 效 地 减少 了 
样本 分 布 不 均衡 对 模型 性 能 的 影响 。 苑 宁 佳 利用 密度 
采样 的 核心 集 主动 学 习 算 法 对 SVD-CNN 深度 模型 进 
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目前 尚 不 清楚 已 有 的 主动 学 习 方法 是 否 有 效 以 及 能 在 
多 大 程度 上 进一步 提高 其 分 类 性 能 。 此 外 ， 最 近 的 深 
度 主 动 学 习 策 略 ， 如 核心 集 @ 和 深度 贝 叶 斯 方法 只， 都 
是 在 视觉 领域 的 卷 积 神经 网 络 任务 模型 上 开发 的 。 这 
些 策略 在 BERT 等 基于 Transformer 架构 的 深度 网 络 模 
型 上 的 适用 性 尚 不 可 知 。 

为 了 探究 使 用 主动 学 习 方 法 应 用 训练 BERT 模型 
进行 新 闻 文 本 分 类 的 方案 可 行 性 ， 本 研究 使 用 了 自制 
怜 虫 数 据 集 测试 主动 学 习 方 法 的 效果 ， 对 比 了 对 
BERT 使 用 深度 主动 学 习 方 法 和 对 多 种 机 顺 学 习 模 型 
使 用 主动 学 习 方法 进行 训练 的 效果 。 通 过 多 轮 实 验 ， 
验证 了 BERT 模型 的 优越 性 并 找到 了 和 它 最 搭配 的 采 
样 策略 ,发现 了 一 种 将 深度 主动 学 习 技术 应 用 在 新 闻 
文本 主题 分 类 任务 中 对 预 训练 大 型 网 络 进行 高 效 训练 
的 可 行 方案 。 


2 研究 方法 


本 研究 的 方法 设计 包括 了 主动 学 习 流程 设计 ， 主 
动 学 习 采 样 策略 ， 主 动 学 习 任务 模型 ， 文 本 数据 集 构 


(/c HB TI 


Chinay i\ r£ 4/2 BB: 
CANA IV ao T FRA TY 


Tusc, Hiei, BORN 
基于 BERT 和 深度 主动 学 习 的 农业 新 闻 文 本 分 类 方法 


建 ， 实 验 环境 和 评价 指标 等 部 分 。 其 中 任务 模型 和 主 
动 学 习 采 样 策略 相互 配合 共同 组 成 了 完整 的 主动 学 习 
方法 。 


2.1 主动 学 习 流 程 设 计 


主动 学 习 的 工作 原理 是 使 用 已 有 的 采样 策略 从 未 
标记 样本 集中 选择 最 有 价值 的 样本 子 集 ， 通 过 人 工 标 
记 后 再 对 分 类 天 进行 训练 中 。 这 种 方式 中 只 需 标 记 和 
迭代 训练 小 部 分 的 无 标记 样本 就 能 改善 任务 模型 质量 ， 
提升 分 类 效果 。 而 基于 池 的 方法 是 主动 学 习 方法 中 党 
见 的 一 类 流程 ， 本 研究 也 使 用 了 这 种 方法 。 

维护 一 个 未 标注 数据 的 集合 ， 由 选择 策略 在 该 集 
合 中 选择 当前 要 标注 和 训练 的 数据 ， 经 过 标注 后 再 加 
和 信 有 标签 集合 作为 新 的 训练 集 。 其 中 选择 策略 又 叫 采 
样 函 数 ， 其 作用 是 根据 预测 的 标签 概率 等 信息 来 选择 
出 该 选择 策略 认为 最 有 标注 和 训练 价值 的 、 对 模型 的 


预期 提升 最 大 的 一 批 数据 ， 详 细 流 程 如 图 1 所 示 。 
/ 新闻 文本 数据 / 


数据 划分 : 无 标签 样本 集 U， 


有 标签 样本 集 L， 测 试 样本 集 B 
| 选择 任务 模型 和 采样 策略 | 
| 根据 采样 策略 从 样本 集 U 中 选择 代表 性 样本 集 x_ 


对 x 进 行人 工 标注 〈 已 标注 数据 集 省 略 该 步骤 ) 


更 新 L，U 样 本 集 ，L=L+x, U=U-x 


在 样本 集 B 上 进行 测试 


达到 目标 迭代 次 数 或 分 数 不 再 提高 


是 
利用 样本 集 L 训 练 任务 模型 
在 样本 集 B 上 进行 测试 
保存 实验 结果 


图 1 主动 学 习 流程 图 


Fig.1 Flow chart ofthe active learning 


另外 ， 借 鉴 其 他 经 验 " 


直接 在 每 轮 模型 的 迭代 训 


练 中 使 用 了 全 量 训练 而 不 是 迁 代 训练 。 这 种 方法 得 到 
的 模型 精度 更 高 ， 尤 其 是 当 训练 深度 网 络 的 时 候 。 


2.2 主动 学 习 采 样 策略 


2.2.1 最 小 置信 度 方法 (Least Confidence) 

该 方法 四 原理 是 将 模型 在 对 每 个 数据 进行 预测 时 
产生 的 置信 和 度 (通常 是 最 终 输 出 层 前 激活 函数 所 获得 
的 浮 点 值 ) 作为 对 数据 不 确定 性 的 度量 。 置 信和 度 越 小 
说 明 模型 对 于 这 种 数据 越 陌 生 ， 也 就 认为 该 数据 越 可 
能 为 模型 带 来 更 大 的 提升 。 根 据 置信 度 对 未 标记 的 样 
本 进行 升序 排序 ， 并 根据 每 轮 选 取 量 的 设置 选 出 一 个 
数据 子 集 经 标注 后 作为 新 的 训练 数据 ， 该 采样 策略 表 
ANA: 

argminmax (P(y | x)) (1) 


2.22 深度 贝 叶 斯 采样 (Deep Bayesian Active Learning, 
DBAL) 

深度 贝 叶 斯 采样 策略 专用 于 处 理 超大 规模 的 深度 
神经 网 络 ， 具 体 方法 是 对 模型 多 个 激活 层 之 前 加 入 
dropout 层 ， 这 样 训 练 以 及 测试 时 就 能 够 通过 对 dropout 
层 权 重 的 后 验 分 布 进行 蒙特 卡 洛 采样 (Monte-Carlo 
Sampling) 获得 类 别 概率 的 后 验 分 布 上 四 。 在 分 类 问题 
中 ， 通 过 使 用 蒙特 卡 洛 积分 对 近似 后 验 概率 进行 求解 ， 
该 采样 策略 表示 为 : 

p(y -clx,L) 
~ J p(y = c | x,w)qg(w)dw (2) 
AR = Diet softmax (f(x) 

其 中 7 是 蒙特 卡 洛 采 样 次 数 (在 测试 时 深度 学 习 
模型 中 对 给 定 的 测试 集 进行 重复 7 次 预测 )， 其 权 值 为 
f-qy (w), qo (w) 为 dropout 的 分 布 结果 中 。 这 样 即 可 
利用 最 低 不 确定 度 等 采样 方法 在 每 轮 迭 代 中 根据 预测 
概率 从 数据 中 选择 出 数据 进行 训练 ， 形 成 改进 的 主动 
学 习 方法 。 

2.2.3 判别 性 主动 学 习 (Discriminative Active Learning, 
DAL) 

判别 性 主动 学 习 (DAL) 中 的 思路 为 将 主动 学 习 

转换 为 一 个 二 元 分 类 任务 ， 通 过 选择 特定 样本 进行 标 
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记 ， 使 标记 池 和 未 标记 池 的 差别 最 小 ， 从 而 选 出 最 能 
代表 样本 整体 的 训练 集 样 本 。 具 体 地 说 ，Y: XX 是 
从 原始 输入 空间 到 一 些 学 习 表 示 的 映射 。 该 方法 定义 
了 一 个 二 值 分 类 问题 ，X 作为 我 们 的 输入 空间 ，y 作为 
我 们 的 标签 空间 ， 其 中 1 是 在 标记 集中 的 一 个 样本 的 标 
AE, u 是 未 标记 集 的 标签 ， 再 由 算法 1 即 可 得 到 选择 结果 。 

算法 (Discriminative Active Learning) Input:U,L, 


K,n {K is the total budget,n is the a mount of mini-queries} 
for i= 1.…do 
P—TRAIN.BINARY CLASSIFIER(U,L) 


for j = 1K do 
n 


x —argmax,euP(y-u | V(x)) 
L—LUx 
U—U'x 
end for 
end for 
return U,L 
2.2.4 随机 选择 采样 (Random Sampling) 
随机 选择 采样 吧 是 指 采样 函数 从 未 标记 数据 池 中 
随机 选 出 一 批 数据 作为 本 轮 新 增 的 训练 数据 。 在 主动 
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Tree, GB), x FF m at PLAT 2S ae" (Support Vector 
Machine, SVM) 等 。 这 些 机 器 学 习 模 型 的 输入 数据 必 
须 是 数值 型 数据 ， 所 以 先 将 文本 数据 经 过 分 词 、 
TF-IDFC 向 量化 等 操作 ( 取 语 料 库 中 频率 排名 前 1 000 
的 词语 作为 TF-IDF 特征 ) ， 这 样 每 个 文本 样本 就 表示 
为 1 000 维 的 浮 点 型 数据 。 
2.3.2 BERT 模型 

BERTD 模 型 对 于 文本 的 表示 ， 使 用 了 基于 Trans- 
former? RA EUIS] LA ez, FRET RRA ZIM 
了 句 般 入 和 位 置 舰 入， 能 够 很 好 地 把 握 全 局 信息 以 及 
词 与 所 在 句子 的 关系 ,很 大 程度 上 改进 了 原 有 模型 ， 
在 各 项 NLP 任务 中 均 表 现 突出 。Transformer 层 是 
BERT 的 主要 框架 ， 由 多 个 编码 器 (Encoder) 和 解码 
器 (Decoder) ZAR), Encoder 包括 4 Ei. 第 一 层 为 多 
头 注 意 力 机 制 (Multi-Head Attention) 中 ; 第 二 层 为 残 
EMA; 第 三 层 为 前 馈 神 经 网 络 ; 第 四 层 在 最 后 实 
现 了 归 一 化 操作 。Decoder TE Encoder 的 基础 上 加 入 
Encoder-Decoder Attention 层 ， 实 现 了 信息 的 解码 和 重 
新 序列 化 。 其 中 ， 多 头 注意 力 层 是 Transformer 层 的 核 
心 ， 其 主要 思想 是 通过 计算 词 与 词 之 间 的 关联 度 来 调 
整 词 的 权重 ,反映 了 该 词 与 同一 句 话 中 其 他 词 之 间 的 


学 习 研 究 中 ， 一 般 将 其 作为 基线 方法 与 其 他 主动 学 习 
采样 策略 进行 比较 ， 验 证 主动 学 习 方法 的 有 效 性 。 


2.3 主动 学 习 任 务 模型 


任务 模型 是 主动 学 习 方 法 的 重要 组 成 部 分 ， 和 采 
样 策略 共同 构成 了 完整 的 主动 学 习 方法 。 不 同 的 采样 
策略 对 所 搭配 的 任务 模型 的 也 有 不 同 要 求 ， 例 如 本 文 
中 的 最 低 置信 和 度 方法 只 需要 模型 能 够 在 预测 时 输出 置 
信 度 即 可 ， 而 DAL 方法 和 DBAL 方法 则 需要 配合 含有 
文本 般 入 表示 的 深度 神经 网 络 模型 。 

2.3.1 机 器 学 习 模型 

本 研究 使 用 几 种 机 需 学 习 模 型 与 BERT 模型 进行 
对 比 ， 包 括 随机 森林 分 类 器 吗 (Random Forest, RF), 
多 项 式 模型 朴素 贝 叶 斯 分 类 器 上 四 (Multinomial Naive 
Bayesian, MNB), 48/2 A428 48") (Logistic Regres- 
sion, LR), f$ EE T2 7H BI 428 #E"" (Gradient Boosting 
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联系 强 弱 ， 进 而 反应 了 每 个 词 对 于 所 在 句子 的 语义 表 
达 的 重要 程度 。 首 先 ， 输 入 序列 进入 Encoder， 通 过 线 
性 变换 得 到 表示 目标 字 的 矩阵 、 表 示 上 下 文 各 个 字 的 
和 矩阵 以 及 表示 目标 字 与 上 下 文 各 个 字 的 原始 矩阵 。 然 
后 ， 通 过 放 缩 点 积 操作 得 到 自 注 意 值 ， 该 值 体现 了 当 
模型 对 一 个 词 进行 编码 时 ， 该 词 与 输入 句子 的 其 他 词 
的 关联 程度 。 最 后 ， 将 自 注意 值 进行 拼接 和 线性 变换 ， 
得 到 与 模型 输入 的 文本 长 度 相 同 的 输出 向 量 ， 该 向 量 
含有 增强 语义 能 够 提升 算法 整体 效果 。 
2.4.3 BERT 模型 参数 

实验 参数 的 合理 设置 直接 影响 实验 结果 。 模 型 训 
练 过 程 的 各 项 初始 设置 与 训练 参数 经 调整 后 实现 了 较 
优 效果 ， 具 体 参数 的 数值 设置 如 表 1 所 示 。 

在 对 BERT 模型 或 者 机 器 学 习 模 型 进行 主动 学 习 
训练 时 候 ， 保 持 了 相同 的 每 轮 新 增 标注 数据 批 次 大 小 
30， 从 而 能 对 比 其 在 每 次 迭代 的 性 能 差异 ， 以 及 在 多 
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个 迭代 间 的 性 能 提升 速度 。 
表 1 BERT 模型 参数 


Table 1 Model parameters 


模型 训练 参数 参数 值 
Hidden layer number 12 
Hidden layer dimension 768 

Network parameters 110M 
Learning rate le-6 
BERT 
Max sentence length 256 
AL suggestions num 30 
AL Epochs 8 
optimizer AdamW 


在 每 次 模型 训练 过 程 中 还 使 用 了 “提前 停止 (Early 
Stopping) 3” 的 技巧 。 当 在 验证 集 上 的 准确 率 不 再 上 
升 时 及 时 停止 训练 ， 以 此 来 避免 过 拟 合 、 不 收敛 等 问 
题 ， 并 提高 模型 训练 效率 。 


24 文本 数据 集 构建 


2.4.1 语 料 获 取 
PAE HIS, HMM BRA, IRA, oH 
华 网 等 中 文 新 闻 网 站 上 分 别 以 “农业 ”“ 农 产品 ” 
GKR” “BESS” SESS RE Te] MCE 6 年 的 新 闻 文 本 数 
据 ， 经 过 数据 清洗 后 共 获 得 19 847 条 新 闻 数 据 。 其 中 
含有 农业 领域 新 闻 9 442 条 ， 非 农业 领域 新 闻 10 405 
条 。 农 业 领 域 新 闻 中 包括 了 农产品 市 场 、 农 产品 价格 、 
农业 政策 发 布 等 内 容 。 将 整个 数据 集 按照 8:1:1 的 比例 
划分 训练 集 、 验 证 集 和 测试 集 。 
2.4.2 数据 标注 

通过 人 工 标注 的 方法 标记 每 条 新 闻 是 否 为 农产品 
相关 新 闻 。 因 为 主动 学 习 的 过 程 中 需要 多 轮 查询 和 数 
据 标 注 ， 所 以 构建 了 简单 的 自动 化 标注 训练 系统 ， 能 
够 方便 快速 地 将 主动 学 习 工 作 流 中 采样 策略 选择 的 未 
标记 数据 送 往 标注 系统 ， 经 过 四 位 农业 领域 的 研究 生 
分 工 标注 后 对 模型 进行 训练 。 


2.5 实验 环境 


实验 硬件 为 专业 深度 推理 服务 器 ， 配 有 8 核 CPU 
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E5-2678 V3, ECC 内 存 128G， 以 及 4 块 NVIDIA V100 
GPU， 运 行 Linux 操作 系统 。 在 Python3.6 的 环境 下 , 
安装 了 TensorFlow, Pytorch, Keras 等 深度 学 习 库 。 


2.6 ”评价 指标 


精准 率 是 预测 结果 中 正确 预测 的 占 比 ， 召 回 率 则 
表示 样本 中 的 正 例 被 正确 预测 的 占 比 。F 分 数 综合 了 
精准 率 和 召回 率 两 个 评价 指标 ， 因 此 更 加 全 面 ， 在 本 
文中 作为 主要 参考 指标 ， 其 计算 公式 为 两 者 的 调和 平 
Mj. F,-2* (Kits * 查 全 率 )/( 情 准 率 + 查 全 率 )。 


3 实验 结果 


3.1 模型 选择 预 实 验 


XI EE BERT 模型 和 不 同 机 器 学 习 模 型 在 完整 训练 
集 上 训练 后 的 测试 集 性 能 。 各 模型 的 训练 效果 如 表 2 
所 示 。 


R2 在 整个 训练 集 上 训练 各 个 模型 的 效果 
Table 2 The effect of training each model on the whole 


training set 


模型 P R F 
RF 0.792 0.776 0.784 
MNB 0.823 0.825 0.824 
LR 0.827 0.823 0.825 
GB 0.852 0.856 0.854 
SVM 0.839 0.836 0.837 
BERT 0.923 0.913 0.918 


对 比 BERT 模型 和 其 他 模型 ，BERT 模型 的 分 类 
效果 最 优 ，F' 分 数 达 到 0.918。 而 在 其 他 模型 中 梯度 提 
升 树 分 类 器 (GB) 方法 最 优 ，F 分 数 0.854; 随机 和 森 
林 分 类 器 (RE) 方法 最 差 ，F 分数 0.784; 其 他 3 种 方 
法 表现 接近 ，F 分数 在 0.824 到 0.837 之 间 。 

但 在 主动 学 习 过 程 中 ， 模 型 的 选择 不 只 由 模型 的 
精度 决定 ， 模 型 的 运行 效率 也 是 重要 因素 。 在 深度 主 
动 学 习 或 者 主动 学 习 的 实际 应 用 场景 的 人 工 标注 和 模 
型 训练 交替 进行 的 过 程 中 ， 模 型 响应 时 间 (包括 了 模 
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型 训练 和 样本 选择 两 个 过 程 ) 过 长 会 使 标注 工作 在 每 
个 轮 次 间 铀 等 等， 浪费 标注 人 人力， 降低 主动 学 习 过 程 
的 效率 。 重 复 5 次 统计 在 主动 学 习 过 程 0~20 轮 次 中 各 
个 模型 响应 时 间 并 平均 ， 结 果 如 表 3 所 示 。 


表 3 各 个 模型 响应 时 间 


Table 3 Response time of each model 


模型 训练 方法 花费 时 间 /s 
RF least 3.3 
RF random 1.8 

MNB least 1:7 

MNB random 0.5 
LR least 4.9 
LR random 3.9 
GB least 145.6 
GB random 143.2 

SVM least 676.8 

SVM random 679.3 

BERT least T2 
BERT DAL 12.5 
BERT DBAL 10.3 
BERT random 6.8 


梯度 提升 树 (GB) 和 支持 向 量 机 分 类 器 (SVM) 
有 着 远 超 其 他 方法 的 时 间 消 耗 (分 别 为 2 分 钟 以 上 和 
11 分 钟 以 上 ) ， 不 适合 作为 主动 学 习 过 程 中 的 任务 模 
型 。 分 析 效 率 低 的 原因 ， 支 持 向 量 机 由 于 使 用 数据 集 
的 核 矩 阵 (Kernel Matrix) 描述 样本 之 间 的 相似 性 ， 和 矩 
阵 元 素 的 个 数 随 着 数据 规模 增 大 成 平方 增长 。 当 人 处理 
TF-IDF 文本 表示 的 1 000 个 维度 的 数据 表示 且 训 练 样 
本 量 达 到 一 定 规模 时 ， 模 型 训练 速度 就 会 明显 变 慢 。 
而 梯度 提升 树 分 类 器 的 弱 学 习 器 之 间 存 在 依赖 关系 ， 
难以 并 行 训练 数据 ， 同 样 难以 处 理 大 规模 数据 。 

BERT 模型 与 深度 主动 学 习 方 法 因为 能 够 利用 
GPU 计算 加 速 计算 过 程 ， 所 以 速度 虽然 次 于 随机 森林 
等 模型 在 S 秒 内 的 响应 时 间 ， 但 其 10 秒 左右 的 响应 时 
间 也 不 会 让 标注 进入 等 待 ， 符 合 深度 主动 学 习 过 程 对 
模型 的 响应 速度 要 求 。 

对 比 主动 学 习 和 非 主 动 学 习 过 程 的 模型 响应 时 间 ， 
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发 现 深度 主动 学 习 或 者 主动 学 习 方法 的 模型 处 理 耗 时 
一 般 略 高 于 随机 采样 ， 这 是 因为 主动 学 习 的 采样 策略 
相 比 非 主 动 学 习 的 随机 采样 需要 更 多 计算 步 又 ， 如 不 
确定 性 采样 需要 计算 未 标记 池 中 每 个 样本 的 预测 概率 。 

综合 考虑 模型 精度 和 模型 响应 时 间 ， 最 终 在 机 天 
学 习 模型 中 选择 了 随机 森林 分 类 器 (REFE)， 朴 素 贝 叶 斯 
分 类 器 (MNB) PZ Er (LR) 作为 主动 学 
习 的 任务 模型 ， 和 BERT 模型 的 深度 主动 学 习 方 法 进 
行 对 比 。 


3.2 深度 主动 学 习 实 验 


本 实验 测试 深度 主动 学 习 算 法 (DAL、DBAL 和 
最 低 置信 和 度 3 种 方法 ) 搭配 BERT 模型 在 实际 新 闻 分 
类 筛选 任务 中 的 表现 。 为 了 对 比 BERT 模型 的 效果 ， 
还 使 用 了 几 种 经 典 的 机 器 学 习 模 型 的 主动 学 习 过 程 作 
为 对 比 。 根 据 上 一 节 的 预 实验 的 模型 选择 结果 选择 了 
BOWL ARK át (RF) ， 朴 素 贝 叶 斯 分 类 器 (MNB) 
和 逻辑 回归 分 类 器 (LR)。 对 于 每 种 机 器 学 习 模 型 ， 都 
使 用 了 最 低 置 信和 度 的 主动 学 习 方法 ， 并 使 用 随机 采样 
作为 对 照 。 

实验 进行 了 20 KÆR, H 30 次 重复 实验 。 在 主 
动 学 习 人 迭代 中 各 模型 的 分 数 提升 情况 如 图 2 和 表 4 
所 示 。 可 以 看 出 整体 而 言 ， 训 练 相同 模型 的 主动 学 习 
方法 相 较 于 非 主 动 学 习 ， 能 够 实现 更 快 的 精度 提升 ， 
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0.90 
0.85 
0.80 

g 0.75 

© 

a 

之 0.70 
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图 2 主动 学 习 过 程 各 模型 F 分 数 


Fig.2 F,score of each model in the process of active learning 
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这 对 于 BERT 模型 和 3 种 机 器 学 习 模型 是 一 致 的 。 


表 4 主动 学 习 过 程 各 模型 FAM 


Table 4 F, score of each model in the process of active learning 


模型 训练 方法 iter4 iter10 iter20 
LR least 0.838 0.940 0.975 
LR random 0.823 0.892 0.921 
MNB least 0.875 0.955 0.976 
MNB random 0.844 0.886 0.921 
RF least 0.883 0.929 0.957 
RF random 0.851 0.862 0.869 
BERT DAL 0.911 0.929 0.922 
BERT DBAL 0.892 0.929 0.926 
BERT least 0.688 0.891 0.902 
BERT random 0.901 0.906 0.916 


将 BERT 模型 的 次 度 主 动 学 习 和 机 器 学 习 模 型 的 
主动 学 习 过 程 对 比 。 可 以 看 出 BERT 模型 的 F 分 数 上 
升 速度 更 快 ， 都 在 6 次 迭代 内 就 达到 了 最 高 值 。 而 机 
器 学 习 模 型 F, 分 数 上 升 速度 较 慢 ， 而 且 一 直 落 后 于 
BERT 模型 。 

对 于 BERT 模型 ， 表 现 最 优 的 深度 主动 学 习 方法 
是 DAL 方法 ， 而 作为 对 比 基 线 的 随机 采样 方法 则 稍微 
IRF DAL fll DBAL 两 种 方法 。3 种 方法 在 前 3 次 迭代 
HF, 分 数 快速 上 升 ， 而 在 4-6 次 迭代 中 已 经 非常 平 
稳 ， 总 体 呈 现 对 数 型 增长 。 对 于 BERT 模型 表现 最 差 
的 为 最 低 置 信 度 方法 ， 其 通过 6 ECA AK BI T 
其 他 方法 在 第 3 次 迭代 的 性 能 ， 整 体 呈 现 均匀 上 升 趋 
势 。 可 能 是 最 低 置 信 度 方法 中 BERT 模型 最 后 部 分 
softmax 层 的 输出 值 并 不 适合 作为 模型 的 不 确定 性 度 
量 。 这 导致 其 性 能 提升 不 仅 慢 于 其 他 两 种 主动 学 习 方 
法 ， 还 慢 于 随机 采样 方法 。 所 以 在 后 续 新 闻 文 本 分 类 
的 实践 场景 中 ， 应 避免 采用 最 低 置信 和 度 方法 对 BERT 
模型 就 行 主动 学 习 训 练 。 

总 体 来 说 ， 实 验 验 证 了 在 实际 的 农业 新 闻 文 本 簿 
选任 务 中 BERT 模型 配合 深度 主动 学 习 方法 的 可 用 性 
和 高 效 性 ， 具 体 推荐 使 用 BERT 任务 模型 搭配 DAL 
(其 次 是 DBAL) 采样 函数 作为 深度 主动 学 习 方 法 。 
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4 结果 讨论 
4.1 深度 主动 学 习 选 择 策略 分 析 


对 不 同 的 AL 采样 策略 所 获得 的 样本 使 用 多 样 性 
指标 和 代表 性 指标 进行 比较 ， 从 而 了 解 每 种 策略 的 特 
点 为 以 后 AL 策略 的 选择 与 改进 提供 启发 。 

多 样 性 : 每 次 AL 选择 中 ， 一 批 彼此 之 间 较 为 不 
同 的 样本 通常 比 选择 一 批 相互 相似 其 至 重复 的 例子 更 


有 效果 。 根 据 ZHDANOV 的 研究 外 ， 集合 B 的 多 样 性 
可 定义 为 : 
-1 
D(B) = (hze gd (3) 


其 中 , x 表示 用 工 训 练 的 模型 得 到 的 示例 i 的 
[CLS] 标 记 的 表示 ，d(x;，x) 表 示 x; Fl x; 之 间 的 欧 氏 距 
离 。 

代表 性 : AL 策略 (尤其 是 是 基于 不 确定 性 的 策 
略 ) 的 一 个 已 知 问题 是 它们 倾向 于 选择 不 能 正确 代表 
总 体 数 据 分 布 的 离 群 例子 。 因 此 ， 检 查 样本 代表 性 能 
够 检查 是 否 存在 该 问题 。 本 文 使 用 ZHU 等 提出 的 
KNN- 密度 度量 中。 其 中 一 个 样本 的 密度 通过 所 讨论 的 
样本 集合 中 和 它 的 最 相似 的 K 个 例子 的 [CLS] 表 示 在 U 
内 之 间 的 平均 距离 来 量化 ， 而 根据 经 验 一 般 样本 密度 
越 高 则 越 具 有 代表 性 。 

图 3 描述 了 不 同 采样 策略 在 对 BERT 模型 的 每 轮 
训练 中 选择 出 的 样本 的 多 样 性 和 代表 性 评估 结果 。 我 
们 对 多 次 重复 实验 的 结果 取 平 均值 ， 然 后 统计 每 步 迭 
代 上 的 指标 均值 和 方差 分 布 ， 从 而 得 到 指标 值 分 布 的 
箱 线 图 。 

在 多 样 性 指标 上 ， 旨 在 增加 多 样 性 的 DAL 方法 和 
核心 集 方法 具有 最 多 样 化 的 数据 批 次 ， 并 且 DAL 达到 
最 高 的 多 样 性 值 。 相 比 之 下 ， 其 他 策略 倾向 于 选择 选 
择 较 少 多 样 性 的 数据 。 因 此 ， 将 这 些 方 法 与 强调 多 样 
性 的 方法 相 结 合 %3 可 能 会 进一步 提高 其 预测 性 能 的 结 
果 。 最 低 置 信和 度 方 法 的 多 样 性 又 低 于 DBAL 方法 ， 这 
部 分 解释 了 对 BERT 模型 训练 时 最 低 置信 度 方法 性 能 
提升 过 慢 的 原因 。 
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图 3 训练 BERT 时 采样 策略 多 样 性 和 代表 性 评估 


Fig.3 Evaluation of diversity and representativeness of sampling 


strategies 

在 代表 性 方面 ，DAL 作为 一 种 代表 性 驱动 的 方法 ， 
同样 在 整个 场景 中 始终 领先 。 再 考虑 到 DAL 方法 在 3 
个 实验 中 都 表现 除了 稳定 且 优 秀 的 性 能 ， 所 以 推荐 在 
以 后 的 新 闻 文 本 分 类 的 BERT 模型 或 者 类 似 的 Trans- 
former 架构 模型 的 主动 学 习 训 练 上 首选 该 方法 。 其 他 
两 种 主动 方法 的 代表 性 分 数 则 相互 差别 不 明显 。 

最 低 置信 度 方 法 具有 最 低 的 多 样 性 值 ， 并 且 其 代 
表 性 值 也 很 低 ， 这 表明 最 低 置信 度 这 种 简单 的 不 确定 
性 度量 并 不 适合 于 深度 网 络 。 所 以 在 实际 应 用 时 应 避 
免 使 用 该 方法 ， 或 者 将 其 作为 深度 模型 主动 学 习 实 验 
中 的 一 个 基线 对 照 组 。 


4.2 标注 成 本 节约 情况 分 析 


对 比试 验 中 同一 个 模型 的 主动 学 习 方法 和 非 主动 
学 习 方 法 下 达到 相同 Fy 分 数 所 需要 的 迭代 次 数 (也 就 
是 数据 标注 数量 )， 就 可 以 分 析 深 度 主动 学 习 或 者 主动 
学 习 方 法 所 节约 的 数据 标注 的 数量 和 比例 。 以 非 主 动 
学 习 方 法 最 终 轮 次 的 F 分 数 的 不 同 百分比 划 定 不 同 的 
下 分 数 标准 ， 标 注 成 本 节约 比例 如 表 5 和 图 4 所 示 。 

标注 成 本 节约 比例 结果 中 最 显著 的 特点 是 .以 越 
高 的 Fy 分 数 为 标准 对 比 主动 学 习 与 非 主动 学 习 的 标注 
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表 5 各 模型 在 不 同 标准 下 节约 标注 比例 


Table 5 Each model saves annotation proportion under different 


standards 
以 最 终 Fi 的 x% 为 标准 /% RF MNB LR 
97 0.50 0.63 0.53 
98 0.67 0.70 0.64 
99 0.75 0.74 0.71 
100 0.94 0.82 0.78 
mmm 97% EE 99% 


1.04 


mw 98% 


mmm 100% 


$ ve 

s S. es 

e aS M 
model,method 


图 4 各 模型 在 不 同 标准 下 节约 标注 比例 


Fig.4 Each model saves annotation proportion under different 


standards 
成 本 ,主动 学 习 方法 的 标注 节约 比例 越 高 。 所 以 代表 3 
个 模型 不 同 标准 下 标注 节约 比例 的 3 组 柱状 图 内 都 在 
组 内 是 从 左 到 右 逐 渐 增 高 的 。 分 析 原 因 是 模型 性 能 在 
随机 采样 中 的 提升 过 程 是 越 来 越 慢 的 ， 当 前 模型 F 分 
数 越 高 ， 进 一 步 提 升 所 花费 的 时 间 也 越 高 。 而 主动 学 
习 过 程 在 模型 记分 数 越 高 时 ， 对 于 训练 过 程 的 优化 就 
越 明 显 ， 能 够 更 显著 地 提高 训练 效率 。 

横向 分 析 相 对 于 各 性 能 需求 下 不 同 模型 的 主动 学 
习 方 法 标注 节约 比例 ， 可 以 看 出 在 99% 和 100% 被 动 学 
习 最 终 Fi 分 数 两 个 标准 下 ， 节 约 比例 最 高 的 模型 是 随 
机 森林 分 类 器 (RF)， 分别 节约 非 主 动 学 习 所 需 标注 数 
据 的 0.75 倍 和 0.94 倍 ， 其 次 是 多 项 式 朴 素 贝 叶 斯 分 类 
器 (MNB) 节约 0.74 倍 和 0.82 倍 ， 最 后 是 逻辑 回归 分 
类 器 (LR) 节约 0.71 倍 和 0.78 倍 。 但 是 在 97% 和 
98% 最 终 Fi 分 数 两 个 标准 下 ， 随 机 森林 分 类 器 的 标注 
节约 比例 相 较 于 其 他 两 个 模型 不 再 有 优势 。 


202303.10404v1 


chinaXiv 


因为 BERT 模型 的 提升 迭代 主要 集中 在 前 5 次 ， 
采样 点 不 够 密集 所 以 无 法 精确 计算 标注 节约 比例 。 但 
BERT 模型 的 Fi 分 数 提升 过 程 同 样 是 先 快 后 慢 的 ， 推 
测 也 会 有 模型 精度 要 求 越 高 ， 标 注 成 本 节约 比例 越 高 
的 规律 。 例 如 DAL 方法 在 第 3 个 轮 次 达到 随机 采样 在 
第 5 个 轮 次 的 五 分 数 0.902， 但 在 第 6 次 就 达到 了 随机 
采样 在 第 16 个 轮 次 的 F IA 0.917. 


hn 


结论 与 展望 


本 研究 在 BERT 深度 学 习 模 型 以 及 多 种 机 器 学 习 
文本 分 类 模型 上 ， 以 疏 虫 收集 的 中 文 新 闻 数 据 为 材料 ， 
以 筛选 出 农业 领域 新 闻 为 实验 目标 ， 验 证 了 3 种 针对 
BERT 深度 网 络 的 采样 策略 与 任务 模型 配合 后 的 主动 
学 习 效 果 ， 为 新 闻 文 本 分 类 的 深度 主动 学 习 提 供 了 一 
种 可 操作 可 借鉴 的 实践 经 验 。 并 将 文本 分 类 常用 的 机 
器 学 习 模 型 ， 如 随机 森林 分 类 器 、 多 项 式 朴 素 贝 叶 斯 
分 类 器 、 逻 辑 回 归 分 类 器 等 结合 最 低 置信 度 的 主动 学 
习 方 法 分 析 与 BERT 模型 对 比分 析 。 

实验 证 明 ， 主 动 学 习 方 法 加 快 了 深度 模型 的 训练 
过 程 ， 并 显著 提高 了 其 分 类 效果 四。 尤其 是 BERT 模 
型 配合 DAL 采样 函数 ， 是 新 闻 文 本 主题 分 类 与 筛选 场 
景 下 最 佳 的 主动 学 习 方案 。 其 次 可 以 选择 BERT 模型 
配合 DBAL 采样 函数 作为 备 选 方案 。 在 实验 时 还 可 设 
置 随机 采样 作为 基线 对 照 方案 。 如 果 计 算 资 源 不 足 无 
法 顺利 训练 BERT 模型 或 者 标注 数据 和 标注 资源 较为 
充裕 ， 则 可 以 选择 随机 森林 分 类 器 等 机 器 学 习 模 型 拱 
配 最 低 置 信 度 采样 的 主动 学 习 方法 作为 蔡 代 方案 。 

通过 记录 每 轮 主动 查询 获取 数据 的 多 样 性 和 代表 
性 度量 ， 尝 试 解释 了 不 同 采样 策略 的 差异 来 源 。 发 现 
DAL 的 多 样 性 和 代表 性 不 仅 强 于 随机 采样 (也 即 没有 
使 用 主动 学 习 的 情况 ) ， 也 强 于 其 他 两 种 主动 学 习 方 
法 ,这 部 分 解释 了 DAL 搭配 BERT 模型 在 实验 中 为 何 
表现 最 优 。 

EMA AY Me HE EE, BERT 模型 训练 的 主动 
学 习 方 法 和 随机 采样 方法 都 在 经 过 几 次 主动 学 习 迭 代 
后 很 快 就 达到 了 很 高 的 分 类 性 能 ， 说 明 该 数据 虽然 数 
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石 运 来 ， 崔 运 鹏 ， 杜 志 钢 
基于 BERT 和 深度 主动 学 习 的 农业 新 闻 文 本 分 类 方法 


npud iiie 后 续 可 考虑 继续 丰富 新 闻 
文本 爬虫 数据 ， 进 一 步 验 证 本 研究 方案 可 行 性 。 
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A Classification Method of Agricultural News Text Based on BERT 
and Deep Active Learning 


SHI Yunlai', CUI Yunpeng", DU Zhigang’ 
(1. Agricultural Information Institute of CAAS, Beijing 100081; 2. Zibo Digital Agricultural Rural Development Center, Zibo 255000) 


Abstract: [Purpose/Significance] At present, most of the training models used in the research of news classification are non-active 
learning. There are common problems about these models, including data cannot be labeled immediately and the labeling cost is too 
high, which also hinders the analysis of agricultural news. Especially because of the explosive growth of news data in the network era, it 
is more difficult to label data, train supervised text classification models, and screen relevant news in the field of agriculture from 
diversified online news sources. In order to solve this problem, the most commonly used pool based active learning or deep active 
learning technique is used to select more valuable and representative data from unlabeled data for manual labeling, and construct labeled 
data sets to improve the efficiency and effect of news classification and agricultural news mining. [Method/Process] The commonly used 
machine learning models for text classification, such as random forest classifier, polynomial naive Bayes classifier and logistic regression 
classifier, were combined with the active learning method with the lowest confidence to analyze the effect, and the BERT model was 
combined with the three sampling strategies of discriminative active learning, deep Bayes active learning and lowest confidence for deep 
active learning training. On the news corpus of 19 847 samples crawled and cleaned by crawler technology from Sina and other news 
websites, aiming at screening agricultural related news from diversified news samples of various topics, the iterative experiment of 
adding 30 samples per round was tested to check the improvement effect of F, score under various method combinations with the 
increase of the number of annotation. In addition, the representativeness and diversity of the samples selected by the sampling function 
of each method in the deep active learning method of the BERT model were compared, so as to understand the characteristics of each 
strategy and provide inspiration for the selection and improvement of AI strategy in the future. In addition, this paper also analyzed how 
much labeling cost can be saved by using the proposed method. [Results/Conclusions] When comparing a variety of machine learning 
models, it is found that although the gradient boosting tree and support vector machine classifier have high accuracy, they are not 
suitable for active learning because of their low efficiency in text data processing of large-scale high-dimensional data. After combining 
other machine learning models and the BERT model and training text models with the corresponding active learning or deep active 
learning methods, it is found that the application of active learning method can significantly improve the training process of each model. 
Among them, the BERT model, combined with discriminative active learning sampling function, has the best news text classification 
effect and the lowest annotation data requirements. The representativeness and diversity of the samples selected by discriminative active 
learning sampling function are also the highest, which explains the source of the advantages of this method. It can also be found that for 
the same task model, the higher the accuracy of classification is required, and the active learning method can save more annotation cost 
than non-active learning. 
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